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纵向 题目 作答 时 间 模 型 : 对 潜在 加 工 速度 的 发 展 追 踩 


摘 要 为 实现 对 潜在 加 工 速度 发 展 的 客观 追踪 ， 基 于 多 元 正 态 分 布 和 潜在 增长 
作答 时 间 (RT) 模 型 。 四 个 模型 的 测量 模型 一 致 ， 差 异 主要 为 
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到 更 有 说 服 力 的 变量 关系 (e.g 
前 ， 针 对 不 同 的 观 六 


在 加 工 速度 的 估计 精度 略 高 于 
氏 比 例 (<60%9) 的 随机 缺失 数据 均 具 有 一 定 的 耐 受 性 。 总 之 , 本 文 提出 的 
应 用 性 且 心 理 计量 学 性 能 良好 , 不 仅 丰富 了 纵向 RT 数据 的 分 析 方法 , 还 拓展 了 纵向 模型 的 应 用 范围 。 
作答 时 间 ; 纵向 数据 ;对 数 正 态 作答 时 间 模 型 ， 潜 在 增长 曲 
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纵向 RascMIRT {K 4! (Andersen, 1985; Embretson, 1991; von Davier er al., 2011)、 漆 在 增长 
2000) 和 潜在 转换 分 析 模 型 (Collins & Lanza, 2010) 等 。 近 些 年 ， 随 着 测验 情境 复杂 性 


个 模型 均 有 实践 可 应 用 性 ， 


且 它 们 的 数据 分 析 结 果 
拟 研究 1 表明 四 个 模型 在 不 同 模拟 条 件 下 的 参数 估计 返 真 性 良好 , 且 基 于 潜在 增长 
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基于 多 元 正 态 分 布 的 纵向 RT 模型 的 。 模 拟 研 究 2 结果 表明 
向 RT 模型 具有 实践 
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究 者 通常 对 个 体 或 群体 在 特定 时 间 跨 度 中 的 认 知 或 行为 的 发 展 变 化 感 兴 


上 重 于 刻画 每 个 个 体 的 发 展 趋势 和 群体 的 平均 变化 轨迹 。 对 潜在 建构 随时 间 发 展 
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量 /追踪 的 追求 ， 一 些 更 复杂 的 纵向 数据 分 析 模 型 被 提出 ， 如 增长 混合 模型 (Muthen & Muthen, 2000)、 


纵向 诊断 分 类 模型 (Zhan et al., 2019)、 深度 知识 追踪 模型 
& Harring, 2013) 等 。 尽 管 纵向 模型 本 身 
研究 可 发 现 几乎 所 有 纵向 模型 仅 关 兴 
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在 智能 时 代 背 景 下 ， 随 着 计算 机 (网 络 ) 化 测评 的 普及 ， 除 传统 RA 数据 外 ， 对 诸如 题目 
已 越发 普遍 ( 理 雨 婷 等 ,2022; 刘 耀 辉 等 , 2022)。 在 心理 与 教育 测评 
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30 ”中 ,RT 数据 作为 一 种 RA 数据 的 补充 或 平行 数据 !， 描 述 了 个 体 解 决 单一 问题 的 总 耗 时 ， 可 用 于 分 析 个 
31 ” 体 解决 问题 时 的 潜在 加 工 速 度 。 这 在 一 定 程度 上 打破 了 传统 心理 测量 中 对 速度 测验 和 难度 测验 的 功能 
32 ”划分 .另外 , 因 RT 数据 :具有 标准 化 数据 结构 ,符合 心理 计量 模型 的 建 模 与 分 析 要 求 "( 詹 沛 达 , 2022, p2), 
33 ” 近 些 年 受到 了 研究 者 们 的 广泛 关注 , 开发 了 诸多 RT 模型 (de Boeck & Jeon, 2019; 352555, 2017; ENDA, 
34 ”2018)。 比 如 对 数 正 态 RT 模型 (lognormal RT model, LRTM) (van der Linden, 2006; Klein Entink, Fox et al., 


35 ”2009)、 多 维 LRTM ( 詹 沛 达 等 , 2022)、Box-Cox IEA RT 模型 (Klein Entink, van der Linden et al., 2009)、 


36 ”变速 LRTM (Fox & Marianti, 2016) 和 一 些 关注 速度 -精度 权衡 的 RT 模型 (e.g., Ferrando & Lorenzo-Seva, 
37 ”2007)。 但 纵 观 已 有 研究 可 发 现 几乎 所 有 RT 模型 都 仅 适用 于 分 析 横 断 测评 数据 ， 即 仅 能 分 析 被 试 在 单 
38 ”一 时 间 点 测验 中 的 潜在 加 工 速度 ， 无 法 追踪 个 体 潜在 加 工 速度 的 发 展 轨迹 。 
39 《深化 新 时 代 教 育 评价 改革 总 体 方案 》( 中 共 中 央 , 国务院 , 2020) 明 确 指出 应 “改进 结果 评价 ， 强 
化 过 程 评 价 ， 探 索 增 值 评价 ， 健 全 综合 评价 ， 充 分 利用 信息 技术 ， 提 高 教育 评价 的 科学 性 、 专 业 性 、 
客观 性 。” 近 些 年 ， 随 着 学 测 融合 (assessment as learning) 理 念 的 普及 ， 以 学 生 为 中 心 、 以 学 习 为 中 心 的 
测评 理念 逐步 得 到 认可 ， 进 而 可 提供 及 时 反馈 及 干预 的 形成 性 学 测 项 目 逐渐 受到 人 们 的 关注 ， 如 诊断 
性 补救 教学 (王立 君 等 , 2020; Tang & Zhan, 2021)、 自 适应 学 测 系 统 ( 张 华 华 , 汪 文 义 , 2016; Zhang & 
Chang, 2016) 和 智能 导 学 系统 (Woolf, 2009) 等 。 如 图 1 所 示 ， 通 常 形成 性 学 测 项 目 会 根据 对 个 体 在 时 间 
点 p (p=1,.…,P) 上 RA 数据 的 分 析 结 果 提 供 相 应 反馈 和 学 习 材 料 ,然后 在 时 间 点 p+ 1 上 对 其 再 次 测试 ， 
后 再 次 提供 反馈 和 学 习 材 料 ， 如 此 往复 ; 最 终 ， 可 以 通过 对 多 个 时 间 点 上 RA 数据 ( 即 纵 向 RA 数据 ) 的 
分 析 来 刻画 学 生 的 发 展 轨 迹 (Chen et al., 2018; Wang, S., Yang et al., 2018; Zhan, 2020) 。 目 前 ， 随 着 计算 
机 化 测验 的 普及 , 一 些 形成 性 学 测 项 目 己 经 可 以 便捷 地 采集 每 个 时 间 点 上 个 体 对 每 道 题目 的 RT 数 据 ( 即 
纵向 RT 数据 ) (e.g., Wang, S., Hu et al., 2020; Wang, S., Zhang et al., 2018). Wang, S., Zhang 等 人 (2018) 发 
现在 自 适 应 学 测 系统 中 ， 随 着 干预 (反馈 /学 习 ) 次 数 的 增加 ， 学 生 群 体 在 下 一 个 时 间 点 上 作答 所 有 题目 
O 51 的 平均 RT 会 呈现 下 降 趋 势 。Shi 等 人 (2018) 发 现在 阅读 理解 任务 中 借助 智能 导 学 系统 能 够 在 一 定 程度 
52 ”上 降低 被 试 的 RT。 而 上 述 例子 中 导致 观测 变量 RT 降低 的 一 个 主要 可 能 原因 是 被 试 的 潜在 加 工 速度 随 
53 时间 发 生 了 增长 。 此 时 ， 如 何 合理 分 析 纵 向 RT 数据 以 实现 对 潜在 加 工 速度 发 展 的 客观 追踪 ， 是 一 个 兼 
54 ”有 具 理论 与 实践 意义 的 议题 。 
55 对 此 ，Wang, S., Zhang et al. (2018) 及 Wang, S., Zhang 和 Shen (2019) 提 出 了 动态 RT 模型 。 该 模型 假 
56 ” 设 个 体 潜 在 加 工 速度 的 变化 是 由 当前 时 间 点 上 个 体 是 否 掌握 题目 所 需 属性 或 其 他 协 变 量 导 致 ， 而 这 一 
57 ” 定 程度 上 会 限制 该 模型 的 实践 应 用 。 首 先 ， 该 模型 需要 在 认 知 诊断 测评 中 与 RA 数据 分 析 模 型 联合 使 
58 ”用 ,但 实践 中 单独 关注 RT 数据 的 分 析 也 很 常见 (e.g., Guo et al., 2021; van der Linden, 2006; Wang, C. et al., 
59 ”2013; 詹 沛 达 等 ,2020)， 且 非 认 知 诊断 测评 也 可 常 采集 RT 数据 。 其 次 ， 该 模型 假设 但 也 同时 约束 了 潜 
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! RT 和 题目 作答 结果 包含 有 关 同 一 个 问题 解决 过 程 的 平行 信息 ， 比 如 ， 某 学 生 正确 和 
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60 ”在 加 工 速度 的 变化 原因 ， 对 一 些 测 验 时 间 点 间隔 比较 长 的 纵向 研究 而 言 ， 这 可 能 导致 一 些 其 他 因素 (如 ， 
61 ”自然 成 长 和 知识 迁移 ) 的 影响 被 忽视 。 另 外 ， 实 践 中 并 不 是 所 有 研究 都 采集 了 协 变量 ， 也 不 是 所 有 研究 
62 ”都 对 协 变量 的 影响 感 兴趣 。 因 此 ， 仍 有 必要 建构 一 些 应 用 约束 较 少 、 适 用 场景 更 宽泛 的 纵向 RT 模型 。 
63 综 上 所 述 , 已 有 的 纵向 数据 分 析 模 型 主要 聚焦 对 纵向 RA 数据 的 分 析 , 缺乏 对 纵向 RT 数据 的 关注 ; 
64 ”上 且 已 有 的 RT 模型 多 限于 分 析 横 断 测评 数据 ,无 法 追踪 学 生 潜在 加 工 速度 随时 间 的 发 展 。 对 此 ， 本 研究 
65 ” 拟 基 于 两 类 常见 的 纵向 数据 分 析 方 法 (i.e.， 多 元 正 态 分 布 建 模 和 潜在 增长 曲线 建 模 ) 对 最 具 代 表 性 的 
66 ”LRTM 进行 拓展 ， 提 出 四 个 纵向 RT 模型 ， 以 期 实现 对 个 体 潜 在 加 工 速度 发 展 的 客观 追踪 并 丰富 纵向 
67 ”RT 数据 的 分 析 方 法 。 对 此 ， 下 文 将 按 如 下 逻辑 撰写 。 首 先 ， 简 单 回 顾 横断 LRTM， 并 基于 此 提出 四 个 
68 ”纵向 RT 模型。 其次， 通过 对 一 则 有 关 空 间 旋转 能 力 的 纵向 RT 数据 的 分 析 ， 呈 现 新 模型 的 实践 表现 。 
69 ”然后 ， 通 过 两 则 模拟 研究 来 探究 新 模型 的 心理 计量 学 性 能 。 最 后 ， 总 结 研究 结果 并 讨论 研究 局 限 和 展 


= 70 à. 
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71 下 eee 
72 图 1 形成 性 学 习 / 测 评 项 目 示 意图 . 
73 
74 ”2. 纵向 题目 作答 时 间 模 型 
CN 75 在 心理 计量 模型 中 ， 纵 向 模型 的 一 个 核心 作用 是 描述 不 同时 间 点 上 被 试 潜在 建构 的 变化 关系 。 根 


N 76 ，” 据 描述 方式 的 不 同 ， 通 常 可 将 纵向 模型 分 类 两 类 : 一 类 是 基于 多 元 正 态 分 布 的 纵向 模型 (e.g., Andersen, 
77 1985; Embretson, 1991; Paek, Li, & Park, 2016; von Davier er al., 2011; Zhan et al., 2019), 5j —2S4E3E T 18 


€. 78 在 增长 曲线 的 纵向 模型 (e.g., Bollen & Curran, 2006; Kaplan, 2000; Paek, Li, & Park, 2016; Wang, C., & 
C. 79  Nydick, 2020)。 前 者 类 似 于 多 维 IRT 模型 , 直接 利用 多 元 正 态 分 布 对 被 试 在 各 时 间 点 上 的 潜在 建构 进行 
80 ” 建 模 ， 并 可 利用 均值 向 量 描述 不 同时 间 点 上 群体 的 发 展 轨迹 ;后 者 通过 构建 潜在 建构 与 测验 时 间 点 之 


81 ” 间 的 线性 或 非 线 性 回归 函数 来 描述 潜在 建构 随时 间 点 增加 的 变化 趋势 。 
82 基于 上 述 两 种 建 模 逻 辑 ， 本 文 拟 提出 两 类 纵向 RT 模型 ， 分 别 为 基于 多 元 正 态 分 布 的 纵向 RT 模型 


83 ”和 潜在 增长 曲线 纵向 RT 模型 。 进 一 步 ， 基 于 不 同 的 模型 假设 ， 本 文 在 每 类 模型 中 再 分 别提 出 两 个 模型 
84 “”( 即 共 四 个 模型 )。 从 结构 方程 模型 视角 看 ， 上 述 两 类 模型 的 差异 在 于 描述 各 时 间 点 上 潜在 构建 关系 的 结 
85 ” 构 模 型 ， 而 非 测量 模型 。 因 此 ， 下 文 先 介 绍 统一 的 测量 模型 ， 然 后 再 结合 不 同 的 结构 模型 逐一 阐述 四 
86 个 新 模型 。 


MR 


88 21. 模型 建构 
89 21.1. 测量 模型 
90 针对 横断 RT 数据 ，LRTM 是 目前 最 常用 的 RT 测量 模型 之 一 。 设 定 Tu 为 被 试 (n= 1, ..., NXT 
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H i(i= 1,.…, 力 的 作答 时 间 。 则 LRTM 可 表示 为 
logT ni = Ši I 中 in + Eni, Eni~N (0,0; *) s (1) 


logT ni~ Ni — oit, 07?) , Q) 
其 中 ,tw 是 被 试 n WEI IRE; GALAGA, Zee AA i PT MATTEL; e; 为 题目 
EB} TE] DX 7p SES, KREI TER FE OL E EST TD DS PEPE se RE, 0 Ee Ae AA to Ee Bf) 
数 ， 可 以 将 其 视 为 题目 时 间 峰 度 参数 。 
对 于 纵向 测评 而 言 ， 当 整个 测验 包含 PP 个 测验 时 间 点 ， 则 第 p 个 时 间 点 上 纵向 LRTM 的 测量 模型 

可 表示 为 : 


logTnip~N (Šip ~ Din Tnp, wp) > (3) 
RP, Trip REIN TELA p 上 被 试 n 对 题目 i 的 作答 时 间 ; Ey、 和 wj 分 别 是 时 间 点 p 上 题目 i 的 时 间 强 度 
参数 、 时 间 区 分 度 参数 和 时 间 峰 度 参数 ，tw 是 时 间 点 p 上 被 试 n 的 潜在 加 工 速 度 。 


2.1.2. 基于 多 元 正 态 分 布 的 纵向 题目 作答 时 间 模 型 
为 描述 P 个 时 间 点 上 tw 之 间 的 关系 ,一 种 最 直接 的 方法 是 构建 多 元 正 态 分 布 ,如 图 1(a)。 即 假设 r = 
(Tn1…Ttnp ) 是 遵循 多 元 正 态 分 布 的 多 维 潜在 加 工 速度 向 量 : 


Hi o2 UU PipOrlOrP 
t, ~ MVN (p, X) = MVN | E ) : d : (4) 
Hp pplGrpGarl cU : 


Otp 
AP, p= (ho.whp )" 为 P 个 时 间 点 的 潜在 加 工 速度 的 均值 向 量 ， 2 为 方差 协 方差 矩阵 ， 描 述 了 P MET 
间 点 的 潜在 加 工 速度 之 间 的 关系 。 该 模型 直接 估计 的 各 个 时 间 点 上 的 潜在 加 工 速度 , 因此 可 直接 使 用 包 
描述 被 试 个 体 潜在 加 工 速 度 的 发 展 轨 迹 。 此 时 ， 可 以 用 人 ,oyy1) 一 各 ?描述 相 邻 时 间 点 个 体 水 平 的 变化 程 
E, Hipy — ,描述 相 邻 时 间 点 群体 均值 的 变化 程度 。 

实际 上 ， 该 模型 可 视 为 多 维 LRTM (AIA, 2020) 在 纵向 RT 数据 分 析 中 的 应 用 。 因 此 ， 与 多 维 
LRTM 一 样 ， 该 模型 中 2 的 所 有 元 素 均 需 自由 估计 ， 即 2 中 有 PCP + 1)/2 个 待 估计 参数 。 该 做 法 相对 优 
点 是 考虑 了 所 有 时 间 点 上 潜在 加 工 速度 之 间 的 相互 影响 ， 相 对 缺点 是 当时 间 点 PP 数量 较 多 时 参数 估计 
计算 量 较 大 且 易 出 现 估 计 不 收敛 问题 。 

为 缩减 待 估计 参数 数量 ， 可 通过 引入 马尔 可 夫 性 质 (Markov property) 来 约束 2 中 的 竺 估计 参 数 ， 如 
1(b)。 目 前 已 有 许多 研究 将 马尔 可 夫 性 质 引 入 纵向 数据 分 析 中 (e.g., de Haan-Rietdijk et al., 2017; Wang, 
S., Yang al., 2018; Zhan, 2020)。 基 于 马尔 可 夫 性 质 ， 可 假设 被 试 在 时 间 点 的 潜在 加 工 速度 只 与 其 在 时 
间 点 p-1 的 潜在 加 工 速度 有 直接 关系 。 对 此 ， 首 先 将 > 做 如 下 转换 : 
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XE-SQ0S, (5) 
O11 eee 0 
S -( ; ) : (6) 
0 ene OrPp 
1 p: pip 
aa[ Per i TOF], () 
Pp1 Perz ^ 1 


其 中 ，S 为 标准 差 矩 阵 ，Q 为 相关 系数 矩阵 。 然 后 ， 因 只 考虑 相 邻 时 间 点 之 间 的 直接 关系 ， 所 以 只 需 将 
相关 矩阵 Q 中 相 邻 时 间 点 的 相关 系数 po_ip 作 为 待 估 参 数 ， 而 跨 时 间 点 的 相关 系数 不 视 为 待 估计 参数 ， 
由 各 相 邻 时 间 点 上 的 相关 系数 连 乘 而 来 : 


Pab = Pa(a+1)P(a+1)(a+2)--P(b-2)(b-1)P(b-)b > (8) 
其 中 , pay 为 两 个 不 相 邻 的 两 个 时 间 点 a RU. b. ZA A. LE, 当 相 邻 时 间 点 之 间 的 相关 系数 pl = 


0.9, pz3 = 0.7, p34 = 0.8 时 , 则 有 不 相 邻 时 间 点 之 间 的 相关 系数 p13 = plzpz3 = 0.9 X 0.7 = 0.63, p14 = 


P12P23P34 = 0.9 X 0.7 X 0.8 = 0.504, P24 = P23P34 = 0.7 X 0.8 = 0.56。 此 时 ， > 中 待 估计 参数 数量 


P(P + 1)/2 缩减 为 2P 一 1。 

为 便于 阐述 ,下文 将 不 包含 马尔 可 夫 性 质 的 和 包含 马尔 可 夫 性 质 的 模型 分 别 简称 为 MVN-LRTM 和 
MVN-LRTM-M。 另 外 ， 在 采用 锚 题 设计 和 重复 测量 设计 的 情况 下 ， 可 将 第 一 时 间 点 上 所 有 被 试 的 潜在 
加 工 速度 的 均值 和 方差 分 别 约束 为 Hi = 0 和 os = 1 以 保证 模型 的 可 识别 性 (Paek, Li, & Park, 2016). 


2.1.3. 基于 潜在 增长 曲线 的 纵向 题目 作答 时 间 模 型 
为 描述 P 个 时 间 点 上 tmp 之 间 的 关系 , 多 元 正 态 分 布 外 的 另 一 种 方法 是 构建 潜在 增长 曲线 ,如 图 1(c): 


Tnp = Tion + Tin(p — 1) + £y, Enp ~ N(0,02,) ， Oy 
2 
全 (人 (10) 
Tin Bry?” Prairo 91; Ono o2 Í 


式 中 ，ron 为 被 试 款 的 截 距 系数 ， 表 示 被 试 半 的 初始 法 在 加 工 速度 水 平 ， MnP n 的 增长 系数 ， 表 
示 被 试 n 的 潜在 加 工 速 度 随时 间 变 化 的 程度 ; ro 和 Tan 服从 二 元 正 态 分 布 ， 两 者 的 均值 hn 和 hm 分 别 代 
表 群 体 潜在 加 工 速度 的 均值 和 群体 潜在 加 工 速度 的 平均 增长 率 ， 方 差 协 方差 矩阵 则 描述 了 潜在 加 工 速 
度 的 初始 水 平和 增长 系数 之 间 的 关系 : Pr > 0 意味 着 初始 水 平 越 高 的 被 试 ， 其 潜在 加 工 速度 随时 间 
的 增幅 越 大 ， 反 之 则 反 ;， Epp NRA. 5j MVN-LRTM 不 同 ， 该 模型 没有 直接 估计 各 时 间 点 上 的 rw， 而 
是 估计 了 每 个 被 试 的 增长 曲线 系数 (i.e.， mo, m4); 此 时 ， 可 以 用 全, 描述 相 邻 时 间 点 个 体 水 平 的 变化 


LI 


? 也 有 研究 不 考虑 残 差 项 (e.g., Curtis, 2010)， 即 rnp = non + Tus (p 一 1): 预 研究 结果 表明 不 考虑 残 差 项 的 模型 对 实证 数 
据 的 拟 合 结果 较 差 . 
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ERE, H An 描述 相 邻 时 间 点 群体 均值 的 变化 程度 。 
公式 9 假设 ww 随 测验 时 间 点 的 增加 呈 线 性 增长 ， 而 现实 中 mw 随 测验 时 间 点 的 增加 也 可 能 呈 非 线性 
增长 。 此 时 ， 可 在 公式 9 中 增加 二 次 增长 项 来 实现 对 潜在 加 工 速度 的 非 线性 变化 的 描述 ， 如 图 1(d): 


Tnp = Ton + Tin (p = 1) T T2, (p 5 D 十 Enp» Enp ~ N(0,02,) , (11) 
2 
Ton Hro Ono Prony On) On, Prom, On, On, 
Tin | ~ MVN Hr D Pinol n On x. Prinz On, On, > (12) 
T Hr 2 
: Prot nz On Prom Om, On; On; 


HH, omo AX n 的 二 次 增长 系数 ， 其 余 参 数 同 上 。 
实际 上 , 这 两 个 模型 可 视 为 变速 LRTM (Fox & Marianti, 2016) 在 纵向 RT 数据 分 析 中 的 应 用 。 当然 ， 


除 包含 二 次 增长 项 外 ， 非 线性 增长 模型 中 还 可 以 进一步 包含 三 次 增长 项 或 自由 估计 时 间 参 数 (Meredith 


& Tisak, 1990; Paek, Li, & Park, 2016)， 但 限于 篇 幅 原因 本 文 暂 不 关注 它们 。 为 便于 阐述 ， 下 文 将 基于 线 
性 增长 曲线 和 基于 非 线 性 增长 曲线 的 模型 分 别称 为 LGC-LRTM-L 和 LGC-LRTM-N。 另 外 ， 在 采用 销 
题 设 计 和 重复 测量 设计 的 情况 下 ， 可 将 第 一 时 间 点 上 所 有 被 试 的 潜在 加 工 速度 的 均值 和 方差 分 别 约束 


为 hr = 0 fllo2. + o2, = 工 以 保证 模型 的 可 识别 性 (e.g., Wang, C., & Nydick, 2020). 


€ 


| Tan | | Ta 


(c) LGC-LRTM-L (d) LGC-LRTM-N 


图 1 四 个 纵向 题目 作答 时 间 模 型 示意 图 (P = 3). 
ik: 虚线 表示 非 相 邻 时 间 点 之 间 的 相关 ; “*” 表 示 该 相关 系数 由 相 邻 时 间 点 相关 系数 连 乘 得 到 
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161 
162 2.1.4. 四 个 纵向 题目 作答 时 间 模 型 的 对 比 
163 dé | 呈现 了 本 文 所 提出 的 四 个 纵向 题目 作答 时 间 模 型 的 对 比 ( 以 P= 3 为 例 )。 其 中 ， 当 p= 1 时， 


t 


164 — fiui Non 和 j= pxo， 即 在 起 始点 所 有 模型 是 完全 等 价 的 。 其 次 ， 如 上 文 所 述 ， 基 于 多 元 正 态 分 布 的 两 
165 个 模型 和 基于 潜在 增长 曲线 的 两 类 模型 在 追踪 学 生发 展 时 侧重 点 不 同 。 具 体 而 言 ， 前 者 直接 估计 被 试 
166 ”在 各 时 间 点 上 潜在 加 工 速 度 的 水 平 ， 并 未 直接 关注 潜在 加 工 速 度 随 时 间 的 变化 过 程 ， 而 后 者 则 估计 被 
167 ” 试 潜在 加 工 速度 随时 间 的 (线性 或 非 线 性 ) 增 长 曲线 系数 , 没有 直接 估计 被 试 在 各 时 间 点 上 潜在 加 工 速度 
168 ”的 水 平 (可 以 计算 出 )。 再 次 , 对 于 纵向 研究 中 可 能 出 现 的 马 太 效应 (e.g., von Davior et al., 2011; Zhan et al., 
169 ”2019)， 即 被 试 之 间 的 差异 会 随时 间 而 增 大 ， 两 类 模型 的 描述 视角 也 不 一 样 。 具 体 而 言 ， 前 者 直接 估计 


170 ”群体 在 各 时 间 点 上 潜在 加 工 速度 的 标准 差 ， 可 根据 O DA. RAT 1 来 判断 是 否 存在 马 太 效应 ， 


ach OM, > 工时 存在 马 太 效应 ，“ro+D/o ~ 工时 则 不 存在 ;而 后 者 可 根据 pum 是 否 大 于 0 来 判断 ， 


172 Pum > 0 则 存在 马 太 效 应 ，pmm ~ 0 时 则 不 存在 。 需 要 强调 的 是 MVN-LRTM-M 和 两 个 LGC-LRTM 


173 ÆHF P23 的 测验 情境 ;而 当 P=2 时 ， 直 接 使 用 MVN-LRTM 即 可 。 


SS 174 


175 — 3&1. 四 个 纵向 题目 作答 时 间 模 型 的 对 比 (P = 3). 
模型 个 体 水 平 群体 水 平 
p=1 p=2 p=3 p=1 p=2 p=3 
MVN-LRTM Tal Tn2 Tn3 ui u2 u3 
MVN-LRTM-M Tnl Tn2 Tn3 lu u2 u3 
LGC-LRTM-L Ton Ton TEL Mont2Tin Uro Hrot Ur Hrot2 ai 
LGC-LRTM-N Ton Tont Nnt Tn T0420; 405 Uro Hao Lac Lac Uno t2 art A o 
176 
177 2.2. 参数 估计 
178 本 研究 使 用 全 贝 叶 斯 马尔 可 夫 链 蒙特 卡 洛 (MCMC) 算 法 对 四 个 纵向 RT 模型 进行 参数 估计 ， 并 基于 


179 JAGS (Ver 4.3.0) (Plummer, 2015) 实 现 。 相 应 的 JAGS 示例 代码 见 http:/…。 根 据 已 有 数据 分 析 经 验 以 及 
180 Gf d Fox & Marianti, 2016; Wang, S., Zhang et al., 2018)， 本 文选 取 了 特定 的 先 
181 — 验 分 布 。 网 络 版 附录 Sl 章节 中 呈现 了 模型 参数 估计 对 高 、 中 和 低 信息 先 验 分 布 的 稳健 性 分 析 结 果 , 结 
182 果 表 明 四 个 新 模型 对 包含 不 同 信息 量 的 先 验 分 布 均 具 有 较 高 的 稳健 性 。 关 于 如 何 使 用 JAGS 进行 贝 叶 
183 ”斯 MCMC 参数 估计 ， 可 参阅 Curtis (2010) 及 Zhan, Jiao, Man 和 Wang (2019). 
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3. 实证 数据 分 析 
3.1. 数据 描述 与 分 析 
本 研究 以 一 则 有 关 空 间 旋 转 能 力 的 自 适 


模型 的 实践 可 应 用 性 。 该 数据 集 包含 350 名 被 试 在 5 个 时 间 点 上 对 50 i 
的 作答 数据 。 有 基体 而 言 ， 为 平衡 题目 位 置 效应 ， 该 测验 
块 ， 每 个 组 块 包 含 10 题 ( 共 50 题 )， 并 根据 施 测 顺序 形成 5 个 版 本 的 测验 。 


应 学 测 数据 (Wang, S., Yang et al., 2018) 为 例 来 展现 所 提出 
道 题目 ( 即 每 个 时 间 点 10 道 题目 ) 
采用 拉丁 方 设计 ( 见 表 2)， 测 验 总 共 包含 5 个 组 
在 每 个 时 间 点 施 测 时 ， 每 位 


学 生 随机 抽取 其 中 1 个 版 本 的 测验 。 该 数据 已 经 被 一 些 研究 用 于 探究 学 生 的 学 习 轨 迹 (Chen et al., 2018; 


Wang, S., Yang et al., 2018; Wang, S., Zhang et al., 2019)。 本 研究 拟 分 析 该 数据 集 


潜在 加 工 速度 的 发 展 。 
实际 上 ， 该 测验 本 质 是 一 个 采用 了 重复 测 


m 


量 设计 的 纵向 测验 ， 


只 不 过 每 名 被 试 | 


TAY RT 数据 来 追踪 被 试 


于 施 测 设计 导致 


其 在 每 个 时 间 点 上 只 作答 了 10 道 题目 (1 SAR), 缺失 另外 40 道 题目 (ie.， 设 计 缺 失 [missing by design])。 
因此 ， 可 将 该 数据 重新 整理 为 330 人 在 5 个 时 间 点 上 共 250 道 题目 (每 个 时 间 点 50 题 ) 上 的 纵向 数据 ; 


其 中 


N , 


趋势 (剔除 缺失 值 )， 可 发 现 明 显 的 下 降 趋 势 。 


分 别 使 用 MVN-LRTM、MVN-LRTM-M、LGC-LRTM-L 和 LGC-LRTM-N 作为 数据 分 析 模 型 。 


设计 缺失 导致 的 缺失 数据 被 视 为 完全 随机 缺失 。 图 2 呈现 了 50 道 题目 的 对 数 RT 随时 间 变 化 


Em 


四 


个 模型 均 使 用 两 条 马尔 可 夫 链 , 均 预 热 10,000 次 , 采样 5,000 次 3。 使 用 潜在 由 


后 验 预测 模型 检验 (posterior predictive model checking, PPMC) 来 评估 模型 -数据 绝对 拟 合 


测 概率 (posterior predictive probability, ppp) Er 


0.5 表明 模型 与 数据 拟 合 。 本 研究 使 


二 尺 缩减 因子 (PSRF; Brooks 
& Gelman, 1998) 对 作为 MCMC 算法 的 收敛 指标 ， 通 常 PSRF < 1.1 或 1.2 表示 参数 估计 已 收敛 。 使 用 


其 中 后 验 预 


UE EN: 


statistics) ( 即 仅 关注 真实 数据 与 预测 数据 之 间 的 差异 , 不 涉及 具体 模型 参数 ) (Levy & Mislevy, 2016) 1E 
为 PPMC 的 差异 测度 。 使 用 -2LL (-2 X log likelihood) 和 DIC (deviance information criterion) (Spiegelhalter et 


al., 2002) 作 为 模型 -数据 相对 拟 合 指标 ， 指 标 值 


越 小 说 明 模 型 和 数据 拟 合 的 越 好 。 
性 惩罚 ， 单 纯 反映 模型 与 数据 的 拟 合 情 况 ， 而 后 者 包含 模型 复杂 性 惩罚 ， 在 反映 模型 


的 同时 还 考虑 了 实践 应 用 中 的 简约 原则 (parsimony principle) (Beck, 1943). 


表 2. 实证 研究 的 拉丁 方 设计 . 


测验 版 本 

p=1 p=2 
版 本 1 组 块 1 组 块 2 
版 本 2 组 块 2 组 块 3 
版 本 3 组 块 3 组 块 4 


测验 顺序 (P= 5) 


p=3 =4 
组 块 3 组 块 4 
组 块 4 组 块 5 
组 块 5 组 块 1 


3 该 设 定 下 MVN-LRTM 中 潜在 加 工 速度 的 方差 协 方差 矩阵 中 部 分 
次 数 增加 至 100,000 次 ( 预 热 90,000)， 这 些 参 数 仍 未 完全 达到 收敛 标准 ， 其 余 参 数 均 达到 


8 


收敛 标准 。 


前 者 不 包含 模型 复杂 


与 数据 拟 合 情 况 


p=5 
组 块 5 
组 块 1 
组 块 2 


元 素 未 达到 收敛 标准 (PSRF < 1.2), 随后 将 每 条 链 迭 代 


211 


212 
213 
214 
215 
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221 
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228 
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版 本 4 组 块 4 组 块 5 组 块 1 组 块 2 组 块 3 
版 本 5 组 块 5 组 块 1 组 块 2 组 块 3 组 块 4 


对 数 题 目 作 管 时 间 


时 间 点 1 = 时 间 点 2 。 时间 点 3 时间 点 4 。 时间 点 5 


测验 时 间 点 


2 实证 研究 5 个 时 间 点 上 50 道 题目 的 对 数 题目 作答 时 间 分 布 . 


3.2. 结果 

需要 强调 的 是 ， 由 于 MVN-LRTM 中 潜在 加 工 速度 的 方差 协 方差 矩阵 中 部 分 元 素 没有 达到 收敛 标 
准 (PSRF < 1.2)， 所 以 该 模型 与 数据 的 拟 合 结果 仅 供 参考 (其 余 参 数 均 达到 收敛 标准 ); 可 能 的 原因 是 五 
元 正 态 分 布 较 难 实现 稳健 的 参数 估计 (e.g., Cai, 2010)， 且 该 数据 中 样本 量 较 小 还 包含 较 大 比例 的 缺失 
值 。 其 他 三 个 模型 的 所 有 模型 参数 均 达 到 收敛 标准 。 

表 3 呈现 了 四 个 模型 对 实证 数据 的 拟 合 情 况 。 首 先 ， 根 据 各 时 间 点 上 的 ppp 值 ， 表 明 四 个 模型 均 
拟 合 该 数据 。 其 次 , 不 考虑 MVN-LRTM 时 ， 剩 余 三 个 模型 的 对 数据 的 相对 拟 合 比较 接近 。 其 中 ，-2LL 
指标 值 表明 ， 在 不 考虑 模型 复杂 性 惩罚 的 前 提 下 ，LGC-LRTM-N 对 该 数据 的 拟 合 相对 最 好 ， 即 该 模型 
得 到 的 参数 估计 值 相 对 最 能 反映 数据 的 特征 。 而 DIC 指标 值 表明 MVN-LRTM-M 对 该 数据 拟 合 相对 最 
好 ,LGC-LRTM-L 次 之 且 和 LGC-LRTM-N 几乎 没有 差异 .总 之 ,在 简约 原则 下 推荐 使 用 MVN-LRTM-M 
分 析 该 数据 ;但 单纯 从 反映 数据 本 身 特征 的 角度 看 ，LGC-LRTM-N 的 拟 合 最 好 。 
图 3 呈现 了 四 个 模型 中 所 有 被 试 潜在 加 工 速度 随时 间 的 变化 趋势 ( 含 群 体 均值 变化 )。 首 先 ,对 任何 
模型 而 言 ， 潜 在 加 工 速度 的 群体 均值 都 呈 较 明显 的 增长 趋势 。 具 体 而 言 ， MVN-LRTM 的 潜在 加 工 速度 


E 


均值 向 量 p = (0, 0.297, 0.728, 0.996, 1.384), MVN-LRTM-M 的 潜在 加 工 速 度 均 值 向 量 p = (0, 0.311, 
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0.757, 1.030, 1.393)T， 
LGC-LRTM-N 的 潜在 加 工 速度 均值 
化 趋势 更 接近 , 不 同类 模型 
^* MVN-LRTM 对 各 时 间 点 上 群体 均值 


好 地 解释 图 


是 同一 模型 
的 估计 值 


明 不 同时 间 点 上 潜在 加 
图 5 呈现 了 四 个 模型 的 题目 
先 ， 四 个 模型 的 题目 


ET 


目 参 数 。 


LGC-LRTM-L 的 潜在 加 工 速 度 均值 | 向 二 


J 之 则 的 略 


E. 


Ep = (0, 0.433, 0.866, 1.299, 1.732)! , 


的 估计 值 。 


2 中 RT 随时 间 的 下 降 趋势 。 


图 4 呈现 了 


四 个 模型 中 所 
对 5 个 时 间 
[之 间 ， 均 呈现 高 程 


时间 点 上 潜在 加 了 


点 上 洪 


在 加 工 


参数 。 其 


\ 


次 ， 同 一 类 模型 的 时 间 


加 工 速度 之 间 存 在 交互 ， 导 致 两 类 模型 的 时 
加 工 速度 估计 值 
MVN-LRTM 的 ， 所 以 LGC-LRTM 对 时 间 


模型 对 洪 
大 于 


在 


此 外 ， 


Sro+DA 
TP 


度 相 关 。 
工 速度 之 间 也 


目 参数 


之 间 


s 
总 之 ， 


速度 的 估计 值 之 间 ， 
方面 表明 不 同 模 型 
具有 高 度 一 致 性 (主要 原因 
iB. BIZ 
参数 估计 值 


间 区 分 


存在 旨 


微 差异 性 。 


[速度 的 


BORTEN 


4 的 估计 值 


[向 量 p = (0, 0.483, 0.955, 1.416, 1.867)T。 
差异 : 两 个 LGM-LRTM 对 各 时 间 点 上 群体 均值 


其 次 ， 同 一 类 增长 模型 的 变 


的 估计 值 


大 于 两 


Td 


十 计 值 之 间 的 相关 系数 图 。 
还 是 不 同 模型 对 同一 时 间 
具有 高 度 一 致 性 ， 另 


[之 间 


验 采 用 重复 测量 设计 ， 所 以 仅 有 503 
具有 较 高 的 一 致 性 ， 尤 其 是 


区 分 度 参数 估计 值 相 对 更 接近 。 由 于 LRTM 


mn E 


可 以 看 到 ， 
在 加 工 速度 


速度 随时 间 增 长 的 趋势 可 以 较 


无 论 


一 方面 表 


是 该 测验 中 各 时 间 点 之 间 的 间隔 较 短 )。 


道 题目 的 是 
时 间 强度 参数 和 时 间 峰 度 
时 间 区 分 度 参数 与 潜在 


} 度 参数 估计 值 


有 具体 而 言 ， 


PAREZ 
因为 LGC-LRTM 对 
区 分 度 参数 的 估计 值 略 小 于 MVN-LRTM 的 。 


WARN HT BE) 原因 是 两 类 
潜在 加 工 速度 的 估计 值 


SS 


各 


MVN-LRTM 和 MVN-LRTM-M 可 以 计算 潜在 加 工 速度 随时 间 进 展 的 量 尺 变化 (i.e.， 


)， 见 表 4。 可 发 现 ， 在 该 测验 中 被 试 不 存在 马 太 效应 ， 


且 被 试 之 间 的 差异 随时 间 进 展 


还 略微 


减 小 。 另 外 ,，LGC-LRTM-L Pnn = 一 0.051 (i.e., 被 试 增长 系数 与 初始 值 成 极 弱 负 相 关 ) 也 印证 了 该 结 


论 。 

综 上 所 述 , 实证 研究 结果 表明 四 个 纵向 RT 模型 均 具 有 实践 可 应 用 性 且 对 同一 批 数据 的 分 析 结 果 具 
1 较 高 的 一 改 性 。 当 然 ， 由 于 实证 数据 分 析 主 要 用 于 呈现 新 模型 的 实践 可 应 用 性 ， 其 他 一 些 数据 本 身 
相关 的 结论 (e.g.， 导 致 发 展 的 原因 ) 不 再 探讨 。 
表 3. 实证 研究 中 模型 -数据 拟 合 结果 . 

模型 -2LL DIC DDppl  ppp2  ppp3  ppp^ ppp_5 

MVN-LRTM 39123.936 39703.615 0.381 0.445 0.526 0.593 0.592 
MVN-LRTM-M 39094.366 39872.355 0.419 0.457 0.489 0.556 0.600 
LGC-LRTM-L 39056.191 39965.569 0.463 0.378 0.632 0.496 0.576 
LGC-LRTM-N 39051.008 39967.630 0.455 0.341 0.634 0.506 0.605 
iX: MVN-LRTM DAAE e n a CR VEAMOS RIBS. 
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(al MVN-LRTM (b) MVN-LRTM-M 
dri B dri 
ws LL bs] 
H H 
T T 
dH o4 p 
* 1 T T T T T 71 T T T T T 
1 2 3 4 5 1 2 3 4 5 
时 间 点 时 间 点 
(c) LGC-LRTM-L (d) LGC-LRTM-N 
dx | dx 
wj 一 J E 
H H 
i o i 
E: m 
= T T T T T Tz] T T T T T 
1 2 3 4 5 1 2 3 4 5 
时 间 点 时 间 点 
255 
256 图 3. 实证 研究 中 洪 在 加 工 速度 随时 间 的 变化 趋势 . 
257 W: 红线 为 群体 均值 变化 . 
258 
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P, 
LHP I o A Pe 


CN 259 


CO 260 
CN 261 
= 262 


iw 263 


图 4. 实证 研究 中 所 有 模型 对 所 有 时 间 点 上 潜在 加 工 速度 的 估计 值 之 间 的 相关 系数 图 . 
注 : M1 = MVN-LRTM; M2 = MVN-LRTM-M; M3 = LGC-LRTM-L; M4 = LGC-LRTM-N; 下 三 角 区 域 包 
含 平滑 拟 合 曲 线 和 置信 椭圆 ， 上 三 角 区 域 包含 散 点 图 . 
(a) 时 间 强 度 参 数 (b) 时 间 区 分 度 参数 (c) 时 间 峰 度 参 数 
MI M2 M3 M4 S w M2 M3 M MI M2 M3 M4 

264 B1 H- sizi ka 
265 Ks. 实证 研究 中 所 有 模型 的 题目 参数 估计 值 . 
266 È: M1 = MVN-LRTM; M2 = MVN-LRTM-M; M3 = LGC-LRTM-L; M4 = LGC-LRTM-N. 
267 
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表 4. 实证 研究 中 潜在 加 工 速度 随时 间 进 展 的 量 尺 变化 . 


模型 Or2/Gal 05/00 04/073 O15/0r4 
MVN-LRTM 0.933 1.096 0.948 0.925 
MVN-LRTM-M 0.887 1.131 0.910 0.981 


iE: MVN-LRTM [S77 22 O77 259B PAB Od 76 3 TT ARI, RIMES 


4. 模拟 研究 

实证 数据 分 析 表 明 新 模型 具有 实践 可 应 用 性 ， 下 文通 过 两 则 模拟 研究 进一步 探究 四 个 模型 的 心理 
计量 学 性 能 。 模 拟 研究 1 主要 探究 四 个 模型 在 不 同 模拟 条 件 下 的 参数 估计 返 真性 ， 模拟 研究 2 主要 探 
究 四 个 模型 对 数据 缺失 比例 的 耐 受 性 。 
41. 研究 1: 参数 返 真 性 
4.1.1. 研究 设计 与 数据 生成 

研究 1 中 测验 时 间 点 数量 固定 为 已 =5， 另 外 包含 4 个 操纵 变量 ， 分 别 是 样本 量 N= 100 和 300, 
每 个 时 间 点 测验 长 度 肪 = 15 和 30， 相 邻 时 间 点 潜在 加 工 速度 的 均值 增幅 Ah = 0.25 和 0.5， 以 及 各 时 间 
点 潜在 加 工 速度 的 方差 cz = 无 变化 (1, 1, 1, 1, DT、 线 性 变化 (1, 1.25, 1.5, 1.75, 2) 和 非 线 性 变化 (1, 1.1, 
1.3, 1.6, 2)". 

如 图 6 所 示 ， 采 用 锚 题 设计 ， 设 定时 间 点 p 的 后 20% el A (.e., = 15 IY 3 el, 7, — 30 时 6 题 ) 和 时 
间 点 p+1 的 前 20% 题 目 为 相同 锚 题 (i.e., 共 4 组 销 题 )。 参 考 相关 研究 (Fox & Marianti, 2016; EIAS, 
2020)， 各 题目 参数 按 如 下 分 布 生 成 : Eip~N (Hg, 07) = N(4 0.25), iy - N(Mg, 02) = N(1, 0.05) 和 
Wip~N (uo, 02) = N(2 0.05)。5 个 时 间 点 的 题目 参数 生成 后 ， 对 于 相同 锚 题 而 言 ， 再 将 时 间 点 p+1 上 
锚 题 的 题目 参数 固定 为 时 间 点 p LOAM AASB, WE, > Eus JEM TREE IEA AE 
成 ， 各 时 间 点 上 潜在 加 工 速度 的 均值 和 标准 差 依 不 同 模拟 条 件 而 定 ， 各 时 间 点 上 潜在 加 工 速度 之 间 的 
相关 系数 固定 为 0.9。 

最 后 ， 基 于 各 生成 数据 ， 依 据 公式 3 生成 各 时 间 点 上 的 观测 RT。 每 个 模拟 条 件 均 生成 50 组 数据 。 


— 


4/5 /6/]7 {8/9 | 10, II | 12 
4/5/6/7 {8/9 | 0 | IIl | 12 

4/5 /6|7 {8/9 | 0 | 1 | 12 

4/5 /6|7|8 /9 | 0 | Il | 12 
4{/5/6|]7|8 | 9 | 10 | Il | 12 | 13 | 14 | 15 
图 6 模拟 研究 1 销 题 设 定 示 意图 (1, = 15) 


iE: 相同 颜色 方 框 表示 相同 组 锚 题 . 


4.1.2. 分 析 
在 不 同 模拟 条 件 下 分 别 使 用 模型 MVN-LRTM、MVN-LRTM-M、LGC-LRTM-L 和 LGC-LRTM-N 
作为 数据 分 析 模 型 ， 数据 分 析 过 程 与 实证 数据 部 分 保持 一 致 (e.g.， 两 条 马尔 可 夫 链 ， 每 条 链 含 10000 次 
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296 R, 其 中 预 热 5000 次 )。 采 用 均 方 根 误差 RMSE 评估 参数 估计 返 真性 ; RMsEGD) = er ET p 其 中 ， 
297 x fx.) 38 r (r= 1, 2,…R=50) 组 数据 中 某 单一 参数 的 真 值 和 估计 值 。 
298 41.3. 结果 


299 K 5 呈现 了 MVN-LRTM-M 和 LGC-LRTM-L 两 模型 中 各 模型 参数 的 均 方 根 误 差 ( 限 于 篇 幅 原因 ， 


300 ”四 个 模型 的 完整 结果 汇总 详 见 https://docs.qq.com/sheet/DTUJoVEhDUG1LSkpR)。 在 阐述 结果 之 前 需 说 

301 ” 明 的 是 ， 同 一 类 模型 受 操作 变量 水 平 变 化 的 影响 趋势 是 一 臻 的， 正文 仅 以 MVN-LRTM-M 和 

302  LGC-LRTM-L 进行 阐述 ; 另外 ， 操 作 变量 的 水 平 变 化 对 两 类 模型 的 影响 存在 差异 。 具 体 结果 如 下 : 第 

303 ”一 ， 当 样本 量 增 加 时 ，MVN-LRTM-M 的 潜在 加 工 速度 均值 的 RMSE 减 小 ， 而 LGC-LRTM-L 的 增 大 ; 

304 ”两 模型 的 潜在 加 工 速度 的 RMSE 均 减 小 ， 三 个 题目 参数 的 RMSE 均 减 小 。 第 二 ， 当 题目 数量 增加 时 ， 
> 305 MVN-LRTM-M 的 潜在 加 工 速度 均值 的 RMSE 增 大 ,而 LGC-LRTM-L 的 减 小 ; 两 模型 的 潜在 加 工 速度 
的 RMSE 均 增 大 ， 题 目 时 间 强 度 参 数 的 RMSE 略 减 小 ， 题 目 时 间 区 分 度 参 数 增 加 。 第 三 ， 当 洪 在 加 工 
速度 的 均值 增幅 An 增加 时 ， 两 模型 的 潜在 加 工 速度 均值 的 RMSE 均 增 大 ， 潜 在 加 工 速度 的 RMSE 均 增 
大 ， 三 个 题目 参数 几乎 不 受 影响 。 第 四 ， 不 同方 差 变化 类 型 对 两 模型 中 各 参数 的 影响 均 较 小 ， 但 对 洪 
[ 在 加 工 速度 而 言 ， 似 乎 方差 无 变化 时 的 RMSE 最 小 。 第 五 ，LGC-LRTM-L 对 潜在 加 工 速度 和 潜在 加 工 
O 310 ”速度 均值 的 RMSE 普遍 小 于 MVN-LRTM-M 的 ; 且 前 者 的 时 间 区 分 度 参数 的 RMSE 也 普遍 小 于 后 者 的 ; 
311 ”第 六 ， 随 着 时 间 发 展 Gi.e., p=1— p= 5, MVN-LRTM-M 的 潜在 加 工 速 度 均值 的 RMSE 增 大 ， 而 
LGC-LRTM-L 的 减 小 ; 两 模型 的 潜在 加 工 速 度 的 RMES 均 增 大 ， 两 模型 的 题目 时 间 峰 度 参 数 均 增 大 ， 
其 余 参 数 几 乎 不 受 影 响 。 整 体 而 言 ， 模 拟 研 究 1 结果 表明 四 个 模型 在 多 种 模拟 条 件 下 的 参数 估计 返 真 
良好 ， 且 两 个 LGC-LRTM 对 潜在 加 工 速度 的 估计 精度 略 高 于 两 个 MVN-LRTM 的 。 


UK 
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315 R5 模拟 研究 1 中 各 模型 参数 的 均 方 根 误差 汇总 ( 仅 呈 现 LGC-LRTM-L 和 MVN-LRTM-M). 


模型 N I Au ”方差 变化 u T E Q 

线性 0.119 0.256 0.073 0.261 

Hs 无 0.112 0.227 0.069 0.270 

15 非 线性 0.120 0.246 0.071 0.262 

线性 0.229 0.317 0.082 0.275 

us 无 0.220 0.298 0.089 0.269 

100 非 线性 0.245 0.323 0.078 0.287 

线性 0.141 0.290 0.060 0.355 

0:23 A 0.131 0.260 0.060 0.361 

30 非 线性 0.146 0.293 0.057 0.365 

线性 0.282 0.380 0.069 0.373 

me 无 0.276 0.362 0.074 0.375 

MVN-LRTM-M 非 线性 0.285 0.375 0.063 0.368 

线性 0.055 0.152 0.049 0.108 

0.25 无 0.061 0.150 0.059 0.129 

15 非 线 性 0.059 0.156 0.056 0.117 

线性 0.106 0.179 0.054 0.114 

ve 无 0.119 0.187 0.058 0.134 

300 非 线性 0.125 0.201 0.053 0.140 

线性 0.081 0.193 0.044 0.195 

9:23 无 0.085 0.178 0.046 0.205 

30 非 线 性 0.086 0.191 0.044 0.195 

线性 0.165 0.230 0.046 0.196 

05 X 0.162 0.226 0.047 0.198 

非 线性 0.167 0.229 0.048 0.194 

03s 线性 0.070 0.143 0.076 0.080 

无 0.040 0.119 0.071 0.060 

15 非 线 性 0.059 0.128 0.071 0.062 

ös 线性 0.080 0.152 0.086 0.078 

Ji 0.061 0.132 0.097 0.057 

100 非 线 性 0.081 0.149 0.078 0.074 

ene 线性 0.087 0.192 0.062 0.195 

无 0.058 0.140 0.060 0.139 

30 非 线 性 0.085 0.182 0.055 0.183 

we 线性 0.172 0.244 0.073 0.198 

无 0.122 0.181 0.073 0.146 

LGC-LRTM-L 非 线 性 0.151 0.215 0.064 0.171 

线性 0.038 0.126 0.048 0.065 

' 无 0.029 0.116 0.058 0.050 

15 非 线 性 0.038 0.121 0.056 0.049 

5s 线性 0.062 0.135 0.055 0.062 

i 无 0.045 0.120 0.062 0.046 

300 非 线 性 0.051 0.127 0.052 0.053 

"os 线性 0.060 0.154 0.047 0.139 

无 0.045 0.118 0.044 0.105 

30 非 线 性 0.058 0.138 0.047 0.115 

ds 线性 0.124 0.181 0.045 0.139 

I 0.091 0.145 0.055 0.097 

非 线性 0.098 0.152 0.046 0.108 

316 W: 所 有 数值 均 为 $ 个 时 间 点 上 的 均值 
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42. 研究 2， 缺失 值 影响 
4.2.1. 研究 设计 、 数 据 生 成 与 分 析 

实证 数据 中 被 试 在 每 个 时 间 点 上 的 RT 有 较 大 比例 (80%) 的 缺失 ， 尽 管 这 是 设计 缺失 ， 但 我 们 仍 想 
了 解 新 模型 对 缺失 数据 的 耐 受 性 。 因 此 ， 研 究 2 拟 探讨 不 同 数据 缺失 比例 对 四 个 模型 的 参数 估计 精度 
的 影响 。 本 研究 聚焦 于 1 个 操作 变量 ， 即 被 试 在 每 个 时 间 点 上 RT 的 缺失 值 比 例 MS = 0%、20%、40%、 
60% 和 80%. 为 使 研究 2 的 结果 更 具 实践 意义 ,其 他 变量 参考 实证 研究 设 定 : P= 5. N= 350, = 50 (对 
应 MS 各 水 平 ， 分 别 缺失 0、10、20、30 和 40 题 )、Ap = 0.5 Mo? = (1, 1 1, 1, 1D)。 采 用 与 实证 研究 
致 的 重复 测量 设计 , 50 道 题目 的 参数 和 350 名 被 试 的 潜在 加 工 速度 完全 按照 实证 数据 中 的 估计 值 设 定 。 
在 不 考虑 参数 估计 惩罚 时 ，LGC-LRTM-N 对 数据 的 拟 合 相对 最 好 (ie., -2LL 最 小 )， 因 此 ， 我 们 将 
LGC-LRTM-N 在 实证 研究 中 得 到 的 题目 参数 估计 值 和 被 试 参数 估计 值 视 为 模拟 研究 2 中 的 相应 参数 的 
真 值 。 依 据 公 式 3 生成 各 时 间 点 上 的 观测 RT， 每 个 模拟 条 件 均 生 成 50 组 数据 。 
图 7 显示 了 每 种 缺失 值 比 例 条 件 下 ，50 组 生成 中 所 有 被 试 在 每 道 题 目 ( 共 250 题 ) 上 的 平均 对 数 RT 
和 实证 数据 中 每 道 题目 上 的 平均 对 数 RT 之 间 的 Lowess 平滑 拟 合 曲线 (局 部 加 权 多 项 式 回归 曲线 ) 
(Cleveland, 1981)。 每 种 条 件 下 的 50 条 Lowess 平滑 拟 合 曲 线 均 趋 近 于 对 角 线 (i.e.， 两 组 数据 之 间 具 有 高 
线性 相关 )， 表 明 每 种 条 件 下 的 50 组 生成 数据 均 能 很 好 地 代表 实证 数据 (i.e., 对 数据 缺失 的 操纵 没有 对 
数据 其 他 特征 [e.g.， 群体 均值 和 方差 ] 产 生 影 响 )。 

分 别 使 用 模型 MVN-LRTM. MVN-LRTM-M. LGC-LRTM-L fil LGC-LRTM-N 分 析 数 据 。 数 据 分 
析 过 程 及 参数 估计 返 真 性 指标 与 实证 研究 和 模拟 研究 1 中 保持 一 致 。 
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图 7.， 模拟 研究 2 五 种 缺失 比例 下 生成 数据 与 实证 数据 之 间 的 平滑 拟 合 曲线 . 


4.2.2. 结果 

图 8 呈现 了 研究 2 中 各 时 间 点 潜在 加 工 速度 的 和 题目 参数 的 估计 返 真 结 先 ， 随 缺失 比例 增 
加 四 个 模型 的 估计 返 真 性 均 呈 现下 降 趋 势 (i.e., RMSE 增 大 )。 其 次 ， 缺 失 比例 增加 对 被 试 参数 返 真 性 的 
向 大 于 对 题目 参数 返 真性 的 影响 。 再 有 ， 当 缺失 比例 由 60% 一 80% 时 ， 各 返 真 性 指标 会 出 现 一 个 较 
大 幅度 的 变化 ; 因此 , 推荐 在 实践 应 用 中 将 完全 随机 缺失 比例 控制 在 60% 以 下 。 最 后 ， 结 合 模拟 研究 2 
结果 ， 回 顾 实证 研究 结果 ， 需 要 意识 到 实证 研究 结果 中 对 被 试 潜在 加 工 速度 的 发 展 轨迹 描述 可 能 存在 
一 定 的 偏差 。 
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图 8. 模拟 研究 2 被 试 参数 的 和 题目 参数 的 均 方 根 误差 . 


5. 总 结 与 讨论 

为 实现 对 个 体 潜 在 加 工 速 度 发 展 的 客观 追踪 ， 本 文 基于 多 元 正 态 分 布 和 潜在 增长 曲线 提出 了 四 个 
纵向 RT 模型 ， 分 别 为 MVN-LRTM、MVN-LRTM-M、LGC-LRTM-L 和 LGC-LRTM-N。 四 个 模型 的 测 
量 模型 一 致 ， 差 异 主要 体现 在 描述 潜在 加 工 速度 如 何 随时 间 变 化 的 结构 模型 上 。 有 具体 而 言 ， 前 两 个 模 
型 直接 估计 各 时 间 点 上 的 潜在 加 工 速度 ， 未 直接 关注 变化 的 过 程 ， 相反 ， 后 两 个 模型 直接 估计 潜在 加 
工 速度 随时 间 的 变化 (增长 ) 系 数 , 没有 直接 估计 各 时 间 点 上 的 潜在 加 工 速 度 。 实 证 研究 结果 表明 四 个 模 
型 均 有 实践 可 应 用 性 ， 且 它们 的 数据 分 析 结 果 有 具有 较 高 的 一 致 性 。 模 拟 研究 1 表明 四 个 模型 在 不 同 模 
拟 条 件 下 的 参数 估计 返 真 性 良好 ， 且 两 个 LGC-LRTM 对 潜在 加 工 速度 的 估计 精度 略 高 于 两 个 
MVN-LRTM 的 。 模 拟 研究 2 结果 表明 四 个 模型 对 不 同比 例 的 随机 RT 缺失 均 具有 一 定 的 耐 受 性 ， 建 议 
在 实践 应 用 中 将 完全 随机 缺失 比例 控制 在 60% 以 下 。 总 之 , 本 文 提出 的 四 个 纵向 RT 模型 具有 实践 可 应 
用 性 ， 且 心理 计量 学 性 能 良好 ， 不仅 丰富 了 心理 与 教育 测量 中 纵向 RT 数据 的 分 析 方 法 ， 也 拓展 了 纵向 
潜 变 量 模 型 的 应 用 范围 。 
但 限于 精力 和 能 力 ， 本 文 也 有 一 些 局 限 性 有 待 未 来 研究 做 进一步 探讨 。 第 一 ， 尽 管 本 文 一 次 性 提 
出 了 四 个 纵向 RT 模型 , 但 鉴于 纵向 数据 分 析 的 快速 发 展 , 目前 还 有 诸如 增长 混合 建 模 和 多 水 平 增长 建 
模 等 多 种 纵向 建 模 方法 。 未 来 可 尝试 在 纵向 RT 数据 分 析 中 引入 更 多 的 纵向 建 模 方 法 ， 以 期 进一步 丰富 
纵向 RT 数据 的 分 析 方 法 。 
第 二 ， 模 拟 研 究 涉及 的 条 件 有 限 ， 未 来 可 尝试 探究 更 多 操纵 变量 (e.g.， 更 多 更 密集 的 时 间 点 、 不 同 
锚 题 设计 ) 或 已 涉及 变量 的 更 多 水 平 (e.g.， 更 大 样本 量 ) 对 新 模型 表现 的 影响 ， 以 期 为 新 模型 的 实践 应 用 
提供 更 多 的 理论 指导 。 
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369 第 三 ， 本 文 仅 关 注 单 维 潜在 加 工 速度 随时 间 的 变化 ， 随 着 测评 情境 复杂 性 日 益 增 加 ， 如 何 追 踪 多 
370 ” 维 潜 在 加 工 速 度 ( 詹 沛 达 等 , 2020) 随 时 间 的 变化 也 值得 关注 和 探究 。 

371 第 四 ， 模 拟 研究 2 仅 关 注 了 完全 随机 缺失 RT 数据 对 参数 估计 返 真 性 的 影响 , 并 没有 进一步 探讨 其 
372 ”他 类 型 缺失 数据 (e.g., 非 随机 缺失 ) 的 影响 ， 也 没有 关注 不 同 缺失 数据 插 补 法 的 表现 (e.g.， 陈 楠 ， 刘 红云 ， 


373 ”2015); 同时， 模拟 研究 2 中 不 存在 由 样本 流失 导致 的 缺失 数据 。 而 纵向 研究 中 样本 流失 是 一 种 常见 现 
374 象 ， 未 来 可 探讨 该 类 型 缺失 数据 对 新 模型 参数 估计 的 影响 。 


375 第 五 ， 为 增加 模型 的 普 适 性 ， 本 文 没有 考虑 协 变量 对 潜在 加 工 速度 发 展 的 影响 。 如 有 需求 ， 未 来 
376 ”也 可 考虑 在 四 个 纵向 RT 模型 中 引入 协 变量 参数 ， 以 探究 不 同 协 变量 对 被 试 潜在 加 工 速度 发 展 的 影响 。 
377 第 六 ， 本 研究 采用 了 贝 叶 斯 MCMC 算法 。 在 贝 叶 斯 参数 估计 值 中 ， 先 验 分 布 的 选择 反映 了 数据 分 


378 ” 析 者 对 模型 参数 的 已 有 经 验 或 信念 。 根 据 已 有 数据 分 析 经 验 以 及 已 有 研究 结果 ( 詹 沛 达 等 , 2020; Fox & 
379 Marianti, 2016; Wang, S., Zhang et al., 2018)， 本 文选 取 了 特定 的 先 验 分 布 。 尽 管 稳健 性 分 析 结 果 表 明 新 


] 380 ”模型 的 模型 参数 估计 受 不 同 先 验 分 布 的 影响 不 大 ， 但 这 并 不 意味 着 本 文 所 用 的 先 验 分 布 适用 于 所 有 测 
D 381 ” 验 情境 。 在 后 续 实践 中 ， 数 据 分 析 者 可 尝试 使 用 其 他 先 验 分 布 或 超 先 验 分 布 来 探索 恰当 的 先 验 分 布 。 


— 382 另外， 实践 者 也 可 尝试 使 用 诸如 Mplus 等 其 他 软件 实现 参数 估计 。 
LO 383 
X] 384 参考 文献 


( N 385 Andersen, E. B. (1985). Estimating latent correlations between repeated testings. Psychometrika, 50, 3—16. 
. 386 Beck, L. W. (1943). The principle of parsimony in empirical science. The Journal of Philosophy, 40, 617—633. 


387 Bollen, K. A., & Curran, P. J. (2006). Latent curve models: A structural equation perspective. Hoboken, NJ: 
388 Wiley-Interscience. 
389 Brooks, S. P., & Gelman, A. (1998). General methods for monitoring convergence of iterative simulations. 


= 390 Journal of Computational and Graphical Statistics, 7(4), 434—455 


391 Cai, L. (2010). High-dimensional exploratory item factor analysis by a Metropolis-Hastings Robbins-Monro 
392 algorithm. Psychometrika, 75(1), 33-57. 

= 393 Cleveland, W. S. (1981) LOWESS: A program for smoothing scatterplots by robust locally weighted 

' 394 regression. The American Statistician, 35, 54. doi: 10.2307/2683591. 
395 Chang, H.-H., & Wang, W. (2016). “Internet Plus" measurement and evaluation: A new way for adaptive 
396 learning. Journal of Jiangxi Normal University (Natural Science), 40(5), 441-455. 
397  [sKfEfB, TEX X. (2016). “互联 网 +” 测 评 : 自 适应 学 习 之 路 . LAMEN PAIR AREF, 405), 
398 441-455.] 
399 Chen, N., & Liu, H. (2015). Comparison of methods addressing MNAR missing data when fitting a latent 
400 growth model: Selection model and ML. Journal of Psychological Science, 38(2), 446-451. 
401 [ 陈 楠 ， 刘 红云 . (2015). 基于 增长 模型 的 非 随机 缺失 数据 处 理 : 选择 模型 和 极 大 似 然 法 ， DHEA, 38(2), 
402 446-451.] 
403 Chen, Y., Culpepper, S. A., Wang, S., & Douglas, J. (2018). A hidden Markov model for learning trajectories 
404 in cognitive diagnosis with application to spatial rotation skills. Applied Psychological Measurement, 42, 
405 5 - 23. 
406 Collins, L. M., & Lanza, S. T. (2010). Latent class and latent transition analysis: With applications in the 
407 social, behavioral, and health sciences. New York: Wiley. 


408 Curtis, S. M. (2010). BUGS code for item response theory. Journal of Statistical Software, 36(1), 1-34. 
409 de Boeck, P., & Jeon, M. (2019). An overview of models for response times and processes in cognitive tests. 
410 Frontiers in Psychology, 10, 102 


18 


411 
412 
413 
414 
415 
416 
417 
418 
419 
420 
421 
422 
423 
424 
425 
426 
427 
428 
429 
430 
431 
432 
433 
434 
435 
436 
437 
438 
439 
440 
441 
442 
443 
444 
445 
446 
447 
448 
449 
450 
451 
452 
453 
454 
455 
456 
457 
458 
459 
460 
461 
462 


ChinaXiv 预 印 本 


de Haan-Rietdijk, S., Kuppens, P., Bergeman, C. S., Sheeber, L. B., Allen, N. B., & Hamaker, E. L. (2017). On 
the use of mixed Markov models for intensive longitudinal data. Multivariate behavioral research, 52(6), 
747-767. 

Embretson, S. E. (1991). Implications of a multidimensional latent trait model for measuring change. In L. M. 
Collins & J. L. Horn (Eds.), Best methods for the analysis of change: Recent advances, unanswered 
questions, future directions (pp. 184—197). Washington, DC: American Psychological Association. 

Ferrando, P. J., & Lorenzo-Seva, U. (2007). A measurement model for Likert responses that incorporates 
response time. Multivariate Behavioral Research, 42(4), 675—706. 

Fox, J.-P., & Marianti, S. (2016). Joint modeling of ability and differential speed using responses and response 
times. Multivariate Behavioral Research, 51(4), 540-553. 

Guo, J., Xu, X., Ying, Z., & Zhang, S. (2021). Modeling not-reached items in timed tests: A response time 
censoring approach. Psychometrika, 1-33. 

Guo, L. Shang, P., & Xia, L. (2017). Advantages and illustrations of application of response time model in 
psychological and educational testing. Advances in Psychological Science, 25(4), 701—712. 

[ 郭 硕 ， 尚 鹏 丽 ， 夏 凌 翔 . Q017). MEE CET BUS rp Js IN A IN HI A 55 2849]. DEBERI ERE, 25(4), 
701—712.] 

Han, Y., Xiao, Y., Liu, H. (2022). Feature extraction and ability estimation of process data in the 
problem-solving test. Advances in Psychological Science, 30(6), 1393-1409. 

[ 韩 雨 婷 ， 肖 悦 , 刘 红 云 . (2022). 问题 解决 测验 中 过 程 数 据 的 特征 抽取 与 能 力 评 估 .， PEEL AEE 30(6), 
1393-1409.] 

Kaplan, D. (2000). Structural equation modeling: Foundations and extensions. Newbury Park, CA: Sage 
Publications. 

Klein Entink, R. H., Fox, J.-P., & van der Linden, W. J. (2009). A multivariate multilevel approach to the 
modeling of accuracy and speed of test takers. Psychometrika, 74(1), 21—48. 

Klein Entink, R. H., van der Linden, W. J., & Fox, J.-P., (2009). A box-cox normal model for response times. 
British Journal of Mathematical and Statistical Psychology, 62, 621—640. 

Kohli, N., & Harring, J. R. (2013). Modeling growth in latent variables using a piecewise function. 
Multivariate Behavioral Research, 48(3), 370-397. 

Levy, R., & Mislevy, R. J. (2016). Bayesian psychometric modeling. Boca Raton, FL: CRC Press. 

Liu, H., & Meng, Q. (2003). A review on longitudinal data analysis method and it's development. Advances in 
Psychological Science, //(5), 586-592 

[ 刘 红 云 ， 孟 庆 茂 . (2003). 纵向 数据 分 析 方 法 . DLA 11(5), 586-592.] 

Liu, Y., Xu, H., Chen, Q., & Zhan, P (2022). The measurement of problem-solving competence using process 

data. Advances in Psychological Science, 30(3), 522-535. 

XIE, PRA, RAG, AIA. (2022). 基于 过 程 数据 的 问题 解决 能 力 测量 及 数据 分 析 方 法 . 心理 科 
学 进展 , 30(3), 522-535.] 

Liu, Y., Du, H., Fang, J., & Wen, Z. (2022). Methodology study and model development for analyzing 
longitudinal data in China’s mainland. Advances in Psychological Science, 30(6), 1-13. 

(XUV, ABSA, 方 杰 , GR. (2022). 国内 追踪 数据 分 析 方 法 研究 与 模型 发 展 . 心理 科学 进展 , 30(6), 
1-13.] 

Meredith, W., & Tisak, J. (1990). Latent curve analysis. Psychometrika, 55, 107-122. 

Muthén, B., & Muthén, L. K. (2000). Integrating person-centered and variable-centered analyses: Growth 
mixture modeling with latent trajectory classes. Alcoholism: Clinical and experimental research, 24(6), 
882-89]. 

Paek, L, Li, Z., & Park, H. (2016). Specifying ability growth models using a multidimensional item response 
model for repeated measures categorical ordinal item response data. Multivariate Behavioral Research, 
51, 569—581. 

Piech, C., Spencer, J., Huang, J., Ganguli S., Sahami, M., et al. (2015). Deep knowledge tracing. arXiv: 
1506.05908. https://doi.org/10.48550/arXiv.1506.05908 

Plummer, M. (2015). Jags: Just another Gibbs sampler (version 4.0.0). Retrieved from 
http://mcmc-jags.sourceforge.net/ 

Tang, F., & Zhan, P. (2021). Does diagnostic feedback promote learning? Evidence from a longitudinal 


19 


463 
464 
465 
466 
467 
468 
469 
470 
471 
472 
473 
474 
475 
476 
477 
478 
479 
480 
481 
482 
483 
484 
485 
486 
487 
488 
489 
490 
491 
492 
493 
494 
495 
496 
497 
498 
499 
500 
501 
502 
503 
504 
505 
506 
507 
508 
509 
510 
511 
512 
513 
514 
515 


ChinaXiv 预 印 本 


cognitive diagnostic assessment. AERA Open, 7. 

van der Linden, W. J. (2006). A lognormal model for response times on test items. Journal of Educational and 
Behavioral Statistics, 31(2), 181—204. 

von Davier, M., Xu, X., & Carstensen, C. H. (2011). Measuring growth in a longitudinal large-scale 
assessment with a general latent variable model. Psychometrika, 76, 318—336. 

Wang, C., Chang, H., & Douglas, J. (2013). The linear transformation model with frailties for the analysis of 
item response times. British Journal of Mathematical and Statistical Psychology, 66, 144—168. 
https://doi.org/10.1111/).2044-8317.2012.02045.x 

Wang, C., & Nydick, S. W. (2020). On longitudinal item response theory models: A didactic. Journal of 
Educational and Behavioral Statistics, 45(3), 339-368. 

Wang, L., Tang, F., & Zhan, P. (2020). Effect analysis of individualized remedial teaching based on cognitive 
diagnostic assessment: Taking “linear equation with one unknown” as an example. Journal of 
Psychological Science, 43(6), 1490-1497. 

[王立 君 ， 唐 芳 , 詹 沛 达 . (2020). 基于 认 知 诊断 测评 的 个 性 化 补救 教学 效果 分 析 : 以 “一 元 一 次 方程 "为 
Bil. DEFI, 43(6), 1490-1497.] 

Wang, S., Hu, Y., Wang, Q., Wu, B., Shen, Y., & Carr, M. (2020). The development of a multidimensional 
diagnostic assessment with learning tools to improve 3-D mental rotation skills. Frontiers in Psychology, 
11:305. 

Wang, S., Yang, Y., Culpepper, S. A., & Douglas, J. A. (2018). Tracking skill acquisition with cognitive 
diagnosis models: A higher-order, hidden Markov model with covariates. Journal of Educational and 
Behavioral Statistics, 43, 57—87. 

Wang, S., Zhang, S., Douglas, J., & Culpepper, S. (2018). Using response times to assess learning progress: A 
joint model for responses and response times. Measurement: Interdisciplinary Research and Perspectives, 
16(1), 45-58. 

Wang, S., Zhang, S., & Shen, Y. (2019). A joint modeling framework of responses and response times to 
assess learning outcomes. Multivariate Behavioral Research, 55, 49-68. 

Wen, Z. (2017). Causal inference and analysis in empirical studies. Journal of Psychological Science, 40(1), 
200-208. 

[3 BE. (2017). 实证 研究 中 的 因果 推理 与 分 析 . E 40(1), 200-208.] 

Woolf, B. P. (2009). Building intelligent tutoring systems. Morgan Kaufman, Burlington 

Zhan, P. (2020). A Markov estimation strategy for longitudinal learning diagnosis: Providing timely diagnostic 
feedback. Educational and Psychological Measurement, 80(6), 1145—1167. 

Zhan, P. (2018). Bayesian cognitive diagnosis modeling incorporating time information: joint analysis of 
response times and response accuracy data (Unpublished doctoral dissertation). Beijing Normal 
University. 

[& E35. (2018). FLAME AIA AV AT EE ERE: APTE ERN BURUTE TERCER DE OTL 
学 位 论文 ). 北京 师范 大 学 .] 

Zhan, P. (2022). Joint-cross-loading multimodal cognitive diagnostic modeling incorporating visual fixation 
counts. Acta Psychologica Sinica, 54(4), 1-23. 

[f& iiti. (2022). 引入 眼 动 注视 点 的 联合 -交叉 负载 多 模 态 认 知 诊断 建 模 . 心 更 党 帮 54(4), 1-23] 

Zhan, P., Jiao, H., Man, K. (2020). The multidimensional log-normal response time model: An exploration of 
the multidimensionality of latent processing speed. Acta Psychologica Sinica, 52(9), 1132-1142. 

[/& l3 5, Jiao, H., & Man, K. (2020). 多 维 对 数 正 态 作答 时 间 模 型 : HYPE EE E MEE BOR PE. DE 
IR 52(9), 1132-1142.] 

Zhan, P., Jiao, H., Liao, D., & Li, F. (2019). A longitudinal higher-order diagnostic classification model. 
Journal of Educational and Behavioral Statistics, 44(3), 241-281. 

Zhan, P., Jiao, H., Man, K, & Wang, L. (2019). Using JAGS for Bayesian cognitive diagnosis modeling: A 
tutorial. Journal of Educational and Behavioral Statistics, 44(4), 473—503 

Zhang, S., & Chang, H.-H. (2016). From smart testing to smart learning: How testing technology can assist 
the new generation of education. International Journal of Smart Technology and Learning, 1, 67-92. 

中 共 中 央 , 国务院 . (2020). RE BATH BO EET AE. URL: 
http://www.gov.cn/zhengce/2020-10/13/content 5551032.htm 


I 


20 


516 
517 
518 
519 
520 
521 
522 
523 
524 
525 
526 
527 
528 
529 
530 
531 
532 
533 
534 
535 
536 
537 
538 
539 
540 
541 
542 
543 
544 
545 
546 
547 
548 
549 
550 
551 


ChinaXiv 预 印 本 


Longitudinal Item Response Times Models for Tracking Change in Latent Processing Speed 


Abstract 

In psychological, educational, and behavioral studies, measuring change over time is essential to 
developmental study. These changes can sometimes be captured by longitudinal latent variable models, such 
as longitudinal item response theory models and latent growth curve models. With the spread of computerized 
(or web-based) assessments, it has become common to collect process data such as item response time (RT) in 
addition to traditional item response accuracy (RA) data. RT data is used as a complement to RA data, 
describes the total time taken by individuals to solve problems and can be used to analyze the latent 
processing speed of individuals. However, a review of the existing studies reveals that existing longitudinal 
models focus on longitudinal RA data and lack attention to longitudinal RT data; Moreover, most of the 
existing RT models are limited to analyzing cross-sectional RT data and cannot track the development of 
students' latent processing speed over time. To this end, four longitudinal RT models based on two commonly 
used longitudinal modeling methods (i.e., multivariate normal distribution modeling and latent growth curve 
modeling) were proposed to achieve objective tracking of individual potential processing speed development 
and enrich the analysis methods of longitudinal RT data. 

Based on the most commonly used cross-sectional RT model, the lognormal RT model (LRTM), four 
longitudinal RT models were proposed, including the multivariate normal distribution-based LRTM (denoted 
as MVN-LRTM) and its constraint model with the Markov property (denoted as MVN-LRTM-M), the linear 
latent growth curve-based LRTM (denoted as LGC-LRTM-L), and the nonlinear latent growth curve-based 
LRTM (denoted as LGC-LRTM-N). The measurement models are consistent across the four models, with 
differences mainly in the structural model describing how the latent processing speed changes over time. First, 
an adaptive learning/assessment dataset about spatial rotation ability was used as an empirical example to 
show the practical applicability of the proposed models. Second, two simulation studies were conducted 
further to explore the psychometric performance of the proposed models. The purpose of simulation study 1 
was to explore the recovery of parameter estimation under different simulated conditions. The purpose of 
simulation study 2 was to explore the tolerance of the proposed models to different proportions of missing RT 
data. 

The results of the empirical study mainly indicated that all four longitudinal RT models are practically 
applicable and have high consistency in the analysis results for the same cohort of data. The results of 
simulation study 1 showed that the parameters of the proposed models can be well recovered under various 
simulated conditions. The results of simulation study 2 mainly indicated that the proposed models are tolerant 
to different proportions of missing RT data, and it was suggested that the proportion of missing RT data should 
be controlled below 609^ in practical applications. 

Overall, the four longitudinal RT models proposed in this paper have practical applicability and good 


psychometric performance, which enriches the analysis of longitudinal RT data in psychological and 
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educational assessments. 


Keywords: response times; longitudinal data; lognormal response times model; latent growth curve; item 


response theory 
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附录 : 


S1. 先 验 分 布 对 参数 估计 的 影响 
S1.1. 低 、 中 和 高 信息 先 验 分 布 
S1.1.1. 中 信息 先 验 分 布 


先 验 分 布 (i.e., 包含 适量 信息 的 先 验 分 布 ) 设 定 如 下 : 
首先 ， 所 有 模型 的 题目 参数 的 先 验 分 布 一 样 : 


E~N(4,1), 6;~N(1, 1) ICh; > 0), o;—.JInvGamma(1, 1). 


其 次 ， 两 个 MVN-LRTM 而 言 ， 潜 在 加 工 速 度 均 值 的 先 验 分 布 为 : 


对 LGC-LRTM-L 而 言 ， 增 长 曲线 系数 的 先 验 分 布 为 : 


Un, ~N (0, 1). 


对 LGC-LRTM-N 而 言 ， 增 长 曲线 系数 的 先 验 分 布 为 : 


Un, ~N (0, 1) ilg ~N(0, 1). 


S1.1.2. 低 信息 先 验 分 布 


低 信息 


E 验 分 布 以 大 方差 为 变异 范围 ， 在 S1.1.1 的 基础 上 ， 低 信息 先 验 分 布设 定 如 下 : 


£^ N(0, 10), 中 ~N(0, 10) I($; > 0), wi~VInvGamma(10, 10). 


up>2~N (0, 10). 


Ur, ~N (0, 10), po ~N (0, 10). 


S1.1.3. 高 信息 先 验 分 布 


E 


H 
ty 7 


高 信 
syle. 


布设 定 如 下 : 


com 


LAN 


7J 


布 转 


Ir 


绕 “ 真 值 ” 设 定 ， 并 以 小 方差 为 变异 范围 ， 在 S1.1.1 的 基 而 


Si^ N(4, 0.5), 中 ji~N(0.25, 0.5) I(6; > 0), w;~./InvGamma(2, 6). 


S12. 参数 估计 一 致 性 


up>2~N(0.5(p — 1), 0.5). 


Ur, ~N(C0.5, 0.5), us, ~N (0, 0.5). 
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在 贝 叶 斯 MCMC 参数 估计 中 ， 先 验 分 布 的 选择 反映 了 数据 分 析 者 的 经 验 和 对 模型 参数 的 预 判 。 根 


据 已 有 分 析 经 验 和 研究 结果 ( 詹 沛 达 等 , 2020; Fox & Marianti, 2016; Wang, S., Zhang et al., 2018)， 中 信息 
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选用 正文 所 用 实证 研究 数据 ， 该 数据 包含 较 大 比例 缺失 值 ， 意 味 着 参数 估计 结果 更 易 受 到 先 验 分 
布 的 影响 ， 因 此 更 适合 用 于 探究 模型 参数 对 先 验 分 布 的 敏感 性 。 模 型 的 参数 估计 设 定 与 实证 研究 保持 
一 致 。 图 S1 呈现 了 由 个 模型 在 不 同 信息 量 先 验 分 布下 的 题目 参数 估计 值 。 图 S2 呈现 了 四 个 模型 在 不 
同 信息 量 先 验 分 布下 的 潜在 加 工 速度 之 间 的 相关 散 点 图 (由 于 篇 幅 限制 ， 对 5 个 时 间 点 的 潜在 加 工 速度 
求 均 值 )。 整 体 而 言 ， 当 采用 包含 不 同 信息 量 的 先 验 分 布 时 ， 每 个 模型 的 参数 估计 结果 均 无 明显 变化 、 


较为 稳定 ， 即 模型 对 不 同 信息 量 先 验 分 布 具 有 较 高 的 稳健 性 。 
(a) MVN-LRTM (b) MVN-LRTM-M 
ARAPARMADARAE WY 
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图 si. 四 模型 在 不 同 信息 量 先 验 分 布下 的 题目 参数 估计 值 . 
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图 S2. 四 模型 在 不 同 信息 量 先 验 分 布下 的 潜在 加 工 速度 估计 值 之 间 的 相关 散 点 图 (以 低 信息 
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